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Аннотация 

Введение. В последние десятилетия знания о ДНК все шире применяются для решения небиологических задач 
(вычисления с помощью ДНК, долговременное хранение информации). В первую очередь речь идет о случаях, 
когда необходимо подобрать искусственные нуклеотидные последовательности. Для их создания используются 
специальные программы. Однако существующие генераторы не учитывают физико-химические свойства ДНК и 
не позволяют получать последовательности с явно выраженной «небиологической» структурой. Фактически они 
генерируют последовательности, распределяя нуклеотиды случайным образом. Целью данной работы является 
создание генератора квазислучайных последовательностей с особой нуклеотидной структурой. Он должен 
учитывать некоторые физико-химические особенности нуклеотидных структур и будет задействован при 
хранении небиологической информации в ДНК. 

Материалы и методы. Описано новое программное обеспечение САТССООепегаюг для генерации 
квазислучайных последовательностей нуклеотидов. Оно предоставляется как бааб (от англ. зоЙ\аге аз а 
зегу1се — программное обеспечение как услуга), что обеспечивает его доступность с разных устройств и 
платформ. Программа генерирует последовательности определенной структуры с учетом гуанин- 
цитозинового (©С) состава и содержания динуклеотидов. Представлена работа алгоритма новой 
программы. Требования к сгенерированным нуклеотидным последовательностям заданы с помощью 
чата в «Телеграм» (Теестат), наглядно показано взаимодействие с пользователем. Определены и обобщены 
различия входных параметров и получаемых в результате работы программы конкретных нуклеотидных 
структур. Также в сопоставлении даны временные затраты генерации последовательностей при различных 
входных данных. Изучены короткие последовательности, различающиеся по типу, длине, СС-составу и 
содержанию динуклеотидов. В табличном виде показано, как в этом случае соотносятся входные и выходные 
параметры. 

Результаты исследования. Созданное программное обеспечение сравнили с существующими генераторами 
нуклеотидных последовательностей. Установлено, что генерируемые последовательности отличаются по 
структуре от известных ДНК-последовательностей живых организмов, а значит, могут быть использованы в 
качестве вспомогательных или маскирующих олигонуклеотидов, пригодных для молекулярно-биологических 
манипуляций (например — реакции амплификации), а также для хранения в молекулах ДНК небиологической 
информации (изображений, текстов и т. д.). Предложенное решение дает возможность формировать 
специфические последовательности длиной от 20 до 5 000 нуклеотидов с заданным числом динуклеотидов и без 
гомополимерных участков. Более жесткие условия генерации снимают известные ограничения и позволяют 
создавать квазислучайные последовательности нуклеотидов по заданным входным параметрам. Кроме 
количества и длины последовательностей можно заранее определить @С-состав, содержание динуклеотидов и 
природу нуклеиновой кислоты (ДНК или РНК). 
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Приводятся примеры коротких последовательностей, различающихся по длине, СС-составу и содержанию 
динуклеотидов. 

Полученные 30-нуклеотидные последовательности прошли проверку. Установлено отсутствие 100-процентной 
гомологии с известными ДНК-последовательностями живых организмов. Максимальное совпадение 
наблюдалось для сгенерированных последовательностей длиной 25 нуклеотидов (сходство около 80 %). Таким 
образом доказано, что САТСОепегаюг может с высокой эффективностью генерировать небиологические 
нуклеотидные последовательности. 

Обсуждение и заключение. Новый генератор позволяет создавать нуклеотидные последовательности и 5со с 
заданным СС-составом. Решение дает возможность исключить гомополимерные фрагменты, что качественно 
улучшает физико-химическую стабильность последовательностей. 
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Введение. ДНК является уникальным биополимером, обеспечивающим хранение, передачу и 
воспроизведение генетической информации в живых организмах. Молекулы ДНК состоят из четырех типов 
нуклеотидов, содержащих азотистые основания аденин (А), гуанин (С), цитозин (С), тимин (Т). Их возможные 
комбинации обеспечивают нуклеотидные последовательности, формирующие функциональные генетические 
элементы. В молекулярной биологии и генетике основные работы ведутся с нуклеотидными 
последовательностями живых организмов, однако возрастает потребность в создании искусственных 
последовательностей, особенно при решении небиологических задач (например, ДНК-вычисления [1, 2], 
хранение в ДНК [3], криптография [4], ДНК-метчики в гидрологии [5] и др.). 

Как ожидается, к концу 2040 года объем информации достигнет нескольких йоттабайт (102%), что требует ее 
структурирования и хранения. Оба этих процесса существенно влияют на потребление энергетических ресурсов, 
а также на производство устройств хранения данных и периферийных устройств (жесткие диски, твердотельные 
накопители). Для хранения такого количества информации требуется более 10° кг особо чистого кремния [6], 
которого может не хватить. Решение видится в использовании принципов ДНК для работы с масштабными 
объемами данных. 

Нуклеотидные последовательности легко оцифровываются путем присвоения соответствующих двоичных 
кодов отдельным нуклеотидам [7-11] или блокам нуклеотидов [12—14], поэтому текстовые, графические или 
мультимедийные файлы можно преобразовывать в последовательности нуклеотидов [15—18]. Искусственные 
нуклеотидные последовательности можно составить вручную или сгенерировать с помощью специального 
программного обеспечения (генераторы ДНК) в зависимости от решаемых задач. Некоторые генераторы ДНК 
разрабатывались как самостоятельные приложения, другие — как часть программных пакетов, предназначенных 
для решения общих [19] "23% ° или специфических задач [20]. Как правило, генераторы ДНК разработаны на 
основе комбинаторных подходов и производят случайные последовательности заданной длины гуанин- 
цитозинового (СС) состава. Однако такие программные решения не учитывают химические свойства 
нуклеотидов и не позволяют получать последовательности с определенной структурой (например, без 
гомополимерных участков или длинных повторяющихся мотивов). Поэтому создаваемые такими генераторами 
последовательности не всегда можно воспроизвести в лабораторных условиях. Кроме того, такие 
последовательности могут быть идентичны существующим в природе фрагментам ДНК, что вносит 
неоднозначность при попытках закодировать информацию небиологического характера. 
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Цель представленной работы — создание генератора нуклеотидных последовательностей особой структуры, 
которые можно применять при кодировании текстовой, графической и другой информации в молекулах ДНК. 

Материалы и методы. Определены критерии, которые следует иметь в виду при создании 
последовательностей. Учтена необходимость варьировать @С-состав, задавать определенное количество 
динуклеотидов, исключить гомополимерные участки в последовательностях. 

Коллектив авторов разработал программу САТСОСепегаюг на языке Руоп 3.6 (Апасопда 941$ 1Биноп)б. Для 
создания бота” в «Телеграм» (Т@естат) использовали Митру 1.19 [21] и библиотеку Рушоп САТСССепегают. 
Решение предоставляется как Зааб (от англ. зоЙ\аге аз а зегу1се — программное обеспечение как услуга), что 
открывает возможность доступа с разных устройств и платформ. 

Входные параметры: количество последовательностей, их длина, СС-состав и содержание динуклеотидов. 
Генератор исключает повторы длиной от двух нуклеотидов более четырех раз. Результат представлен в виде файла 
С5У, который содержит следующую информацию: последовательность, СС-состав и количество всех нуклеотидов. 

Повторы и гомополимерные фрагменты хранятся в виде отдельного списка. Сначала случайным образом 
генерируется последовательность из четырех элементов (гап4от.сКо1се(пис), где пис = 'АСОТ'). Затем выполняется 
поиск повторов. Если встречается хотя бы один элемент из списка, выполняется новая случайная генерация. Далее 
рассчитывается СС- и ММ-состав. Если М№М№-состав не соответствует заданному пользователем диапазону, парный 
нуклеотид заменяется случайным образом и пересчитывается @С-состав. Если последовательность соответствует 
входным параметрам, она записывается во множество последовательностей (5еачепсе$). 

Ниже представлена работа алгоритма программы. 

Туре — тип; @Сшш, ОСтах — диапазон возможного содержания СС; ММшш, ММ тах — диапазон возможного 
содержания динуклеотидов №М№%; М — количество; $ — последовательность; | — длина последовательности; 
соип{ — общее количество последовательностей 
Псевдокод 
Начало 
Ввод (Туре, СС, ММ, №) 
Генерация списка повторяющихся мотивов, гомополимерных участков тер. 
Соци! = 0 
зедаепсез = зе{() 
Е1< №? 
Шаг 1. $ = гапдот.сБо1се(‘АССТ”) 
ТЕ (Сер. 1$ К) с 5?) 
Возврат на шаг 1. 
ЕГЗЕ 
ММ = еп(ОГ_КЕОСЕХ.ВпдаП(".о1(5))) 
ММ регс = (ММ х 2/1 х 100 
ТЕ ММпит <ММ_регс < ММтах 
ОС = $.соии С") + $.сочи С’) /1х100 

ТЕ ОСшш < ОС < ССтах 

ТЕ буре == ОМА 

Шаг 2. 

А_регс = $.соий 'А') /1х 100 
С_регс = $.соии (О) /1х 100 
С _регс = $.сочи С’ / 1х 100 
Т регс = $.соци СТ") /1х 100 
Ц регс = $.соци О’) /1х 100 
СоциЁ = соци: +1 
зеаиепсез.а44($) 
ЕГЗЕ $ = 5.лер1асе("ТГ', У) 
Шаг 2.) 
ЕГЗЕ 
Возврат на шаг 1. 


° Апасопаа / Апасопда пс. // апасопда.сот : [сайт]. ОВГ: В рз://у\у\у.апасопда.сот/ (дата обращения: 20.01.2023). 
7 Рупоп {вестага Ъоё // о ИвиЬ.сот : [сайт]. ОВГ.: № рз://о ИВ. сот/руоп-ве!естат-Бо/руоп-{ееотат-Ъо% (дата обращения: 01.12.2022). 
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ЕГЗЕ 
Случайная замена второго повторяющегося символа, 
ОС = 5.соип О’) + 5.соци КС’) /1х100 
Вывод Зедиепсев: (5, 9С%, М№%, А%, 9%, С%, ТЛУ%) 
Конец 


Требования к сгенерированным нуклеотидным последовательностям задаются с помощью чата в Теестат. 
Пример взаимодействия с пользователем показан на рис. 1. 


САТСббепегаог 


М/паЕ сап {15 Бо! 40? 


ОпИте репегагог о ОМА/ВМА зедиепсез мин зресйед СС апд 
дпидеондез сопепе 


Ацёи5{ 26 
192“ 1606 9 


5епд а вепега(ог {уре 


э®э 


ОМА 16:06 м 

ОМА репегагог \ма5 спозеп. 5{агИпв {Пе ргосез$ 
Егцег Пе питбег ог 5едиепсез {о вепегаке: 

50 16:06 


Егпег (Пе 5едиепсе |епрй: 


э®эе 


50 16:06 ми 


5ресйу {пе СС согиеп! т %. Це {Пе о!о\ипя ФогтаЕ <пип>- 
<тах> 


э® 


50-50 1606 


5ресИу пе Фтиеочае$ согцепи п %. Це {пе ГоПо\ипя ‘огтаЕе 
<ти>-<тах>. ! Чпиеондез аге пог тапдагогу 5епд 0-0. 


19-20 16:06 


Уоцг 06 15 диецед. Р!еае, \уа ог {пе геи. 


®Фэ® 


< 


Рис. 1. Пример пользовательского чата в Т@еэгат 


В рамках представленной работы сравнивались функциональные возможности генераторов случайных 
последовательностей и САТСОСОепегаюг. Определялись различия входных параметров и получаемых в 
результате работы программы конкретных нуклеотидных структур (таблица 1). 


Таблина 1 
Сравнение функциональных возможностей САТСОСепегаюг 
с другими генераторами нуклеотидных последовательностей 
ОМА В. 
Маеонае т. ны а Капдот Капдот 
САТСОбепегаюг [20] Зедиепсе я ОМА ОМА 
р Зеадиепсе Зедиепсе о о 
Сепегаюг 9 10 Зеадиепсе Сепегаюг 
Оепегаюг Оепегаюг 
м 
и 5 000 1000 000 10 000 1000 
(нуклеотиды) 
Число последовательностей 100 1 1; 10; 50; 100 100 
Ввод ОС-состава (%) + + _ + (*) 
О@С- состав (%) число _ число 
интервал 
Ввод ММ№-состава (%) 
Отсутствие гомополимерных й _ 
участков 
НК/РНК, 
Тип последовательности ДНКРНК ДНК и . ДНК 
Протеин 
Вывод результатов „СЗУ Ше Текст на экране 


(*) Пользователь вводит АТ-состав 
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САТСОСепегаюг обладает более широким функционалом, дает возможность пользователю указывать 
количество динуклеотидов, создавать последовательности без протяженных гомополимерных участков и 
повторов, влияющих на успешность эксперимента. В существующих генераторах возможно только варьирование 
ОС-состава. 

Программа, созданная авторами данной научной работы, генерирует заданное количество квазислучайных 
последовательностей нуклеотидов, не имеющих гомологии с природной ДНК, но пригодных для молекулярно- 
биологических манипуляций. 

Результаты исследования. САТСОСепегаюг позволяет генерировать специфические последовательности 
ДНК или РНК длиной от 20 до 5000 нуклеотидов, содержащие заданное количество динуклеотидов и не 
содержащие гомополимерных участков (не более двух одинаковых нуклеотидов, расположенных рядом). Более 
жесткие условия генерации могут привести к длительному подбору последовательностей. В качестве примера 
приведем небольшой диапазон возможного содержания гуанина и цитозина и динуклеотидов (допустим, @С- 
состав 45—50 % и ММ-состав 10—20 %). Продолжительность работы программы для различных входных данных 
представлена в таблице 2. 


Таблица 2 
Временные затраты генерации последовательностей при различных входных данных 

Входные данные аа 
Длина Число С, % ММ, % ? 
20 10 50-60 20—50 3,45 
30 10 50-60 20—50 3,91 
20 10 50-60 40—50 9,74 
30 10 50-60 40—50 9,53 
30 10 40—50 20-20 8,80 
1000 100 45—50 40—50 11,49 

2000 100 45—50 10-20 240,25 
5 000 100 50-60 20—50 11,57 


САТССОСепегаог благодаря более жестким условиям генерации последовательностей снимает ограничения 
известных генераторов ДНК и создает квазислучайные последовательности нуклеотидов в зависимости от 
заданных входных параметров. Можно указать необходимое количество последовательностей, их длину, 
ОС-состав и содержание динуклеотидов, а также природу нуклеиновой кислоты (ДНК или РНК). Например, 
созданные с помощью САТСССепегаюг последовательности могут быть использованы в ДНК-стеганографии, 
применяемой для защиты и передачи информации путем сокрытия содержания сообщения в последовательности 
нуклеотидов [3]. 

Предлагаемое программное решение (САТСОСепегаюг) позволяет получать набор квазислучайных 
последовательностей нуклеотидов в зависимости от заданных пользователем входных параметров (тип 
нуклеиновой кислоты, длина последовательности, @С- и динуклеотидный состав). САТСОСепегаюг исключает 
наличие любых нуклеотидных повторов и гомополимерных участков длиннее трех элементов. Сгенерированные 
последовательности могут быть использованы как служебные или маскирующие (например, в ДНК- 
стеганографии) и подходят для любых небиологических ферментативных манипуляций. Можно сгенерировать 
множество искусственных нуклеотидных последовательностей и использовать их для создания универсальной 
олиготеки, пригодной для многократного кодирования небиологических данных и их длительного хранения. 

Данные, представленные в таблице 3, обобщенно демонстрируют результаты работы программы. Для 
определенного типа нуклеиновой кислоты (в данном случае ДНК) показаны: содержание динуклеотидов (ММ %), 
количество сгенерированных последовательностей, их длина (нуклеотиды — нт) и СС-состав. 

Полученные 30-нуклеотидные последовательности проверили с помощью инструмента В]азё от МСВИ. 
Выявлено отсутствие 100-процентной гомологии с известными ДНК-последовательностями живых организмов. 
Максимальное совпадение наблюдалось для сгенерированных последовательностей длиной 25 нуклеотидов 
(сходство около 80 %). Это свидетельствует о способности САТСОСепегаюг с высокой эффективностью 
генерировать небиологические нуклеотидные последовательности. Можно считать, что сгенерированные таким 
образом последовательности не имеют абсолютного совпадения с нуклеотидными фрагментами живых 
организмов. 
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Таблица 3 
Примеры коротких последовательностей, различающихся по длине, СС-составу и содержанию динуклеотидов, % 


Входные Выходные 
параметры Нуклеотидная параметры 
Длина, | СС, | ММ, последовательность, 5—3? Длина, | СС, | ММ, 


Тип | Число 
нт % %* нт % %* 


СТСС**ТАТАТСССААТСАТАТСОССОСАСТОТ | 30 | 46, | 20,0 
ААТСАССТАСТАССАСОСАСТАСТСААТСА 30 | 43,3 | 20,0 


5 — СААТОТАСТССТАСССАСАТАСТАССТАСС 30 | 46,7 | 20,0 
АСТТОСАСТСААСТСТАТСАТСТСССАТОС 30 | 46,7 | 20,0 
20 САСАСАСТАСТАТССАССТСАСССАСТТАС 30 |50,0 | 20,0 
ТСАССТСАССОССААТСОАССТТАТАСТОС 30 | 53,3 | 20,0 
САСССТАТСОТСААССАТАСАСССОТОТОСТ 30 | 53,3 | 20,0 
5 30 = САСТСАСТАССТОСТССССАСАТАСАСССТ 30 [56,7 | 20,0 
ТСОСОСОТТАСАСТТАССТСТСАТСОСАСС 30 [56,7 | 20,0 
АСОСТСАСАССАСТТСОСАТССААССАТОС 30 [56,7 | 20,0 
АССАСАСТСАТАТАССАССАСОТОСТСАТА 30 |467 | 0,0 
р САСТАСАТСТСАТАСТАСАСОТОСТССАСТ 30 [46,7 | 0,0 
ДНК 5 50 0 ТСТАТСТСТОСТАСАССОСТСОТСАСТСТА 30 [50,0 | 0,0 
ТСТВАТСТАСТАТАСССАТАСОТСАСАСТО 30 [43,3 | 0,0 
АСАСАТАТАТССАСОСАСОСОТСОТАСТАС 30 [50,0 | 0,0 
ТОСАТСАССАТОСТТОСССТАСАСАТТСАСА 50 |520|200 
СОСОССААТАСТАССАССА у у 
ОСАТАССАСТСССАТАСАТАТТАСАСТАТАС 50 |420|200 
ССТАСТОСАТАТССТОСАА ? ? 
41- СТСАСАСТССТСТСТОТССАССТССТАСТАС 
- 29 60 о СОТСАСССОТОСТСТОААС ыы 
СТОТОТСААСАТАССАТОСАТТСТСАТСТССС 50 |460 | 200 
ТАТСССТВААСТОСАСАТ ? ? 
ОСОСТОАССТСАТССТТСАТАССААТСТАСС 50 |500 |200 
АТСАТОТОССАТАСССАСА у | 


*ММ показывает долю (%) содержащихся динуклеотидов в нуклеотидной последовательности. 


** Динуклеотиды выделены жирным шрифтом. 


В этом случае в качестве удобного носителя информации можно задействовать специальные ДНК- 
олигонуклеотиды искусственного происхождения, содержащие информативную и служебную части. Недавно 
авторы данной работы предложили использовать МУК М-олигонуклеотиды [14], состоящие из: 

— внутренней части (УК)п, кодирующей зашифрованную информацию; 

— служебных (вспомогательных) частей 51 и 52, фланкирующих последовательность (УВ)п (рис. 2). 


5 — (№, — (УВ), — (№„— 3? 
служебная кодирующая служебная 
часть 51 часть часть 52 


Рис. 2. Структура МУК М-олигонуклеотидов: № — вырожденные нуклеотиды; У — пиримидины (С или Т); 
К — пурины (А или С); А, и, т — индексы, соответствующие длине части 


Длина участков (и, К и т) может варьироваться, но структура служебных частей должна обеспечивать 
успешное протекание реакций амплификации (длина более 18нт, 40-60% СС-состав, отсутствие 
гомополимерных участков и повторов). САТСОСепегаюог позволяет включать динуклеотиды ММ, содержащие 
одинаковые парные нуклеотиды (например, АА, СЦ, СС, ТТ или ОЧ для РНК), которые могут повысить 
специфичность молекулярной гибридизации нуклеиновых кислот. 

Обсуждение и заключение. Итак, по итогам выполненной научной работы предложено программное 
решение (САТСССепегаюг), которое в сравнении с традиционными подходами предполагает более жесткие 
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условия генерации последовательностей. Благодаря этой его особенности снимаются ограничения известных 
генераторов ДНК и формируются квазислучайные последовательности нуклеотидов в зависимости от заданных 
входных параметров. Исследованы полученные 30-нуклеотидные последовательности. Проверка позволила 
установить отсутствие 100-процентной гомологии с известными ДНК-последовательностями живых организмов. 
Максимально (примерно на 80 %) совпали сгенерированные последовательности длиной 25 нуклеотидов. 
Отметим также, что для сокрытия информации в МУЕМ№-олигонуклеотидах, необходимо их смешать с 
маскирующей ДНК. Маскирующие последовательности должны быть аналогичны последовательностям МУКМ- 
олигонуклеотидов, чтобы при попытке считывания скрытой информации невозможно было их распознать без 
ключевых последовательностей. Адресату должны быть известны ключевые последовательности — праймеры к 
служебным участкам МУКМ-олигонуклеотидов. Адресат может расшифровать переданное сообщение путем 
выделения информативных последовательностей нуклеотидов с помощью полимеразной цепной реакции с 
последующим секвенированием. Набор МУКМ- и маскирующих олигонуклеотидов можно легко получить с 
помощью САТСОСепегаюг, синтезировать, а затем сохранить в виде олиготеки. Для этого достаточно 
определить оптимальные МУЕКМ-олигонуклеотиды с последующим заполнением олиготеки. В дальнейшем 
планируется проведение лабораторных экспериментов с целью апробации предложенного метода хранения 
небиологической информации и проверки жизнеспособности олиготек, получаемых с помощью генератора. 
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АУ СВетенз: КогишШайоп оР Фе Баз1с сопсерь, гезеагсв оБесНуез ап 1азКз; апа[уз1$ ое гезеагсВ гези!{$, геу1$10п 


ОР Це 1ехф, согесноп ое сопс1а$101$. 
Соп/ПсЕ о 1теге5! зкиетет!: 1е алфогз 40 по Вауе апу соп1сЕ оЁ пиегезй. 


АП аифогз рауе геа4 апа арргоуе4 ше Ппа! тапиустри. 


